08. 数据类型总结

数据类型总结

概括

下表总结了我们的数据类型。

| 数据类型 | | |
|---|---|---|
| 数值: | 连续 | 离散 |
| | 身高、年龄、收入 | 书中的页数、院子里的树、咖啡店里的狗 |
| | | |
| 分类: | 定序 | 定类 |
| | 字母成绩等级、调查评级 | 性别、婚姻状况、早餐食品 |
以下是上表中分享的信息的一些细节。
要扩展表中的信息,你可以查看以下文本。

换个角度看

要分解我们的数据类型,主要有两大块:

数值 分类

数值 可以进一步分为 连续 离散

分类 数据可以分为 定序 定类

你现在应该已经掌握了我们周围世界里的哪种数据属于这四大类:离散、连续、定类和定序。在后面的小节,我们将详细介绍与数值变量有关的数值总结。


数值与分类

其中一些可能有点棘手 —— 虽然邮政编码是一个数字,但它们并非数值变量。如果我们将两个邮政编码加在一起,并不会从得到的新值中获得任何有用的信息。因此,这是一个分类变量。

身高 年龄 书中的页数 年收入 采用的值我们可以进行加、减和执行其他运算,来获得有用的见解。因此,这些是 数值 数据。

性别 字母成绩等级 早餐类型 婚姻状态 邮政编码 可以视为一组物品或个人的标签。因此,它们是 分类 数据。


连续和离散

要区分我们的数据是连续还是离散的,要看我们是否能将数据分割成更小的单元。想想时间 —— 我们可以用年、月、日、小时、分钟或秒来衡量一个事件,甚至是在秒级,我们知道仍然有更小的单位可以用来衡量时间。因此,我们知道此数据类型为连续的。 身高 年龄 收入 都是 连续数据 的例子。或者,我们知道 书中的页数 我数的咖啡店外的狗数量 院子里的树 离散数据 。我们可不想将狗一分为二。


# 定序与定类

在看定类变量时,我们发现 性别 婚姻状态 邮政编码 早餐食品 定类变量 ,这种类型的数据没有相关的顺序排列。无论你早餐吃麦片粥、吐司、鸡蛋还是只喝咖啡,它并没有相关的排序。

相反, 字母成绩等级 调查评级 作为 定序数据 具有关联的排序。如果获得 A,它高于 A-。A- 的排名高于 B+,以此类推……定序变量在评级量表上很常见。在很多情况下,我们将这些定序变量变为数字,这样可以更容易地进行分析,稍后我们再详细说明这一点!


总结

在本节中,我们研究了我们会在生活中使用的不同数据类型。当我们在现实生活中使用数据时,它可能不是很干净,有时会有错字或值缺失。在这种情况下,拥有数据方面的专业知识并了解数据类型可以帮助我们清理数据。理解数据类型也可以帮助我们创建可视化来解释数据。稍后详细说明这点!